Адміністрація вирішила продати даний сайт. За детальною інформацією звертайтесь за адресою: rozrahu@gmail.com

Лаба 3

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
ІКНІ
Факультет:
Прикладна лінгвістика
Кафедра:
Системи автоматизованого проектування

Інформація про роботу

Рік:
2014
Тип роботи:
Лабораторна робота
Предмет:
Комп’ютерна лінгвістика
Група:
ПРЛс
Варіант:
3

Частина тексту файла

МІНІСТЕРСТВО ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА» Кафедра «Системи автоматизованого проектування» Звіт до лабораторної роботи №3 «Вивчення бібліотеки прикладних програм NLTK, для опрацювання текстів природною мовою. Доступ та робота з корпусами текстів» з курсу «Комп’ютерна лінгвістика» одному або декількох текстах, або навпаки – дізнатися весь перелік текстів, які належать до певної категорії. Більшість корпусів текстів є лінгвістично анотованими, тобто містять різного типу розмітку – морфологічну, синтаксичну, семантичну; у них можуть бути виділені власні назви, вказані семантичні ролі і т.п. NLTK забезпечує способи доступу до багатьох корпусів і розповсюджується з цими корпусами або їх фрагментами. Якщо тексти в корпусі поділені на різні категорії (за жанром, тематикою, авторами), то можна побудувати частотні розподіли для кожної з категорій. Такі дані дозволяють досліджувати відмінності між жанрами. Умовний частотний розподіл – це набір частотних розподілів, кожен з яких відповідає певній «умові». Такою умовою може бути категорія тексту. Частотний розподіл визначає числові значення для кожної події (подіями можемо вважати вживання слів в тексті). Умовний частотний розподіл поєднує в пари кожну подію та умову. Замість обробки послідовності слів обробляються послідовності пар. Кожна пара відповідає шаблону (condition, event). Тоді як для класу FreqDist() вхідними даними є список, то для класу ConditionalFreqDist() вхідними даними є список пар. Інтерпретатор виконує оператори програми відразу після їх введення. Часто виникає потреба спочатку написати програму, яка складається з багатьох рядків, використовуючи текстовий редактор, а потім запустити її на виконання. Використовуючи IDLE, можна це зробити, відкривши нове вікно за допомогою пункту меню File, зберігши текст програми у файлі *.py і запустивши програму на виконання за допомогою команди Run Module пункту меню Run. У програмуванні часто потрібно частину програми виконати (використати) декілька разів. Щоб більш ефективно і надійно організувати таку роботу, використовують функцію. Функція – це програмна конструкція, яку можна викликати з одним або більше вхідними параметрами, і отримувати результат на виході. Визначаємо функцію, використовуючи ключове слово def, далі потрібно дати назву функції і визначити вхідні параметри, після двокрапки записується тіло функції. Ключове слово return використовується для відображення значення, яке потрібно отримати на виході функції. Множина змінних і функцій, збережених у файлі, називаються в Python модулем. Множину пов’язаних між собою модулів називають пакетом. Програма обробки корпуса Brown є прикладом модуля, а множина програм для роботи зі всіма корпусами є прикладом пакету. NLTK – це множина пакетів, яку називають бібліотекою. Тексти програм Варіант №3 3.3 Прочитайте тексти з корпусу State of the Union addresses використовуючи state_union модуль читання. Визначити частоту вживання слів men, women, people в кожному з документів. Як змінилася частота вживання цих слів з часом?.  3.5 Виберіть пару текстів і дослідіть відмінності між ними (кількість оригінальних слів, багатство мови, жанр). Знайдіть слова, які мають різний зміст в цих текстах, подібно до слова monstrous в Mobbrowny Dick та у Sense and Sensibility.  3.7 Напишіть програму для знаходження всіх слів у корпусі Brown, які зустрічаються не менш ніж три рази.  3.8 Напишіть програму генерації таблиці відношень кількість слів/кількість оригінальних слів для всіх жанрів корпуса Brown. Проаналізуйте отримані результати та поясніть їх.  Перше числове значення позначає кількість слів у певному жанрі, друге значення – кількість оригінальних слів, а третє – відношення загальної кількості слів до кількості оригінальних слів. Останній параметр є заокругленим значенням. 3.11 Напишіть програму для створення таблиці частот слів для різних жанрів. Знайдіть слова, чия присутність або відсутність є характер...
Антиботан аватар за замовчуванням

27.11.2014 04:11

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини